グローバルな情報展開と翻訳関連データの標準化
2009年03月01日作成
1page 2page 3page
2.5 XLIFF
XLIFF(XML Localization Interchange File Format)は、XML形式の応用規格を標準化する団体であるOASISが作成した、ローカライズデータつまり翻訳データの交換規格である。XLIFF形式のファイルに対応する翻訳支援ツールやオープンソースのXLIFF Editorを使用すると、翻訳者は翻訳メモリを活用しながら効率的に翻訳作業を進めることができる。XLIFFは翻訳支援ツールなどの入出力形式の標準化を目指したものである。
XLIFFは基本的に翻訳ユニット(translation unit)の集合である。XLIFFの翻訳ユニットは下記の構造をしている。
翻訳ユニット<trans-unit>
原文<source>
訳文<target>
訳文候補1<alt-trans>
原文<source>
訳文<target>
訳文候補2<alt-trans>
…
たとえば、先ほどの『吾輩は猫である』を例にとると、次のようになる。
<trans-unit id=”c1”>
<source>吾輩は猫である。</source>
<target xml:lang=”en”>ここに「I am a cat.」などの訳文が入る</target>
<alt-trans match-quality=”50%” tool=”TM”>
<source>吾輩は犬である。</source>
<target xml:lamg=”en”>I am a dog.</target>
</alt-trans>
</trans-unit>
この例では、原文と訳文、そして翻訳メモリにあった類似例が参考として入っている。こんなイメージの形式である。
翻訳者にとって原文に入っている書式情報や索引情報を含むタグは、翻訳上わずらわしいものである。XLIFFでは、原文のタグをXLIFFの特定のタグに置換して処理する。次に、XLIFFでの文中タグの処理の例を示す。
原文: 吾輩は<hp2>猫</hp2>である。
XLIFF: 吾輩は<bpt id=”7”><hp2></bpt>猫<ept id=”7”>/<hp2></ept>である。
<bpt>は原文中の開始タグをエスケープするためのタグ、<ept>は原文中の終了タグをエスケープするためのタグであり、その対応はid属性の値で取られる 。こうすることで、翻訳支援ツールはタグの属性値が翻訳対象となる場合にそれを認識できる。もちろん、このエスケープされたタグをソフトウェアで翻訳者にどのように表示するかは、翻訳支援ツールの仕様の問題 である。
XLIFFには、翻訳ユニット<trans-unit>だけでなく、翻訳資料に関連する情報を含めることができる。それを含めた一つの翻訳対象のまとまりをファイル(file)と呼ぶ。XLIFFの基本構造は下記のとおりである。
XLIFF<xliff>
ファイル<file>
ヘッダー<header>
本体<body>
翻訳ユニット
ファイル …
ヘッダーの中に、本文から除いたタグ情報が入ったスケルトンファイルの所在情報、用語集・参考資料・ツールなど、必要な関連情報を入れておくことができる。
これ以外にも、XLIFFには多くの機能があるが、概要としてはここにとどめる。
2.6 他の関連規格
翻訳に関連して重要なものには、翻訳対象量や品質評価などがある。翻訳対象量は、翻訳者や翻訳会社にとっても、発注元の企業にとっても、金銭の支払いや予算と関係するだけに重要である。業界では翻訳メモリを使用するようになり、翻訳メモリからの流用による翻訳をどのように料金算定するかで、トータルコストが大きく変わってくる。グローバリゼーションを推進する企業とローカリゼーションを請け負う企業が良好な協力関係のもとに仕事を進めるには、翻訳量の算定や品質評価の基準が明確でなければならない。
LISAはこうした必要にこたえるためGlobal information management Metrics eXchange(GMX)という規格を策定中である。GMXは3つに分かれている。
- Volume(GMX-V) ワードカウントなどの作業負荷を計測する規格
- Complexity(GMX-C) 作業の難易度を計測する規格
- Quality(GMX-Q) 作業の品質を計測する規格
まだGMX-Vしか公表されていないが、今後、このような規格が標準化されることは、業界全体の品質向上や体質改善に役立つと思われる。
LISAには、他にもTerm Linkという規格があるが、これはXML文書の中からTBXの用語データをリンクの形で参照するための規格である。
3. DITAからxml:tmへのフロー
翻訳対象文書のXML化はかなりの勢いで進んでいる。XML形式で作成された文書をいかに効率的にまた低コストで翻訳してPDF・HTML・ヘルプなどの形式に仕上げるかは、ローカライズを担当するベンダーの大きな課題となっている。これを解決するためには、執筆から翻訳、翻訳から配布物作成へのシームレスな流れが重要である。
マニュアルやヘルプファイルの記述から配布までをカバーする柔軟なXML形式であるDITA(Darwin Information Typing Architecture)を使って、このシームレスなフローを実現するアイデア が出てきている。その場合に、翻訳メモリとして活躍するのが、xml:tmである。
DITAとxml:tmをどのように効率よく組み合わせるかという技術が、翻訳支援ツールやDTPツールの開発ベンダー、また様々なソリューションベンダーから提案されてくると思われる。今後に期待したい。
4. グローバリゼーションの課題
グローバリゼーションの課題をもう一つあげるとすれば、情報技術を使ったクライアントとベンダーとの相互のコミュニケーション向上である。この点で、翻訳工程のWebサービス化と見える化が課題となると思う。翻訳工程がセキュアなインターネット上でシームレスに流れるようになるとき、生産性の向上と真の意味での品質の向上を目指せるのではないかと願っている。
参考文献・サイト
■ LISAのサイト(www.lisa.org)のstandardのページにある各種の規格
■ OASISのサイト(www.oasis.org)のXLIFFの規格
■ XML.comのサイト(www.xml.com)の次の記事:
Translating XML Documents wth xml:tm
(http://www.xml.com/pub/a/2004/01/07/xmltm.html)
■ OAXML: Open Architecture for XML Authoring and Localization
(http://www.xml.com/pub/a/2007/02/21/oaxal-open-architecture-for-xml-authoring-and-localization.html)
脚注
- 1. 同じ資料は、グローバリゼーションに「国際化」という用語を採用しなかった理由として、「『国際化』は国家を前提にしたものであるのに対し、『地球規模化』は国家を前提としておらず、国家を越えて世界を一つにするものである」という明快な説明を加えている。ちなみに、中国語では「全球化」という訳語が用いられているそうである。
- 2. ちなみにグローバリゼーション(globalization)は、同様にG11Nと略することがある。
- 3. 国際化に似た用語として、多言語化(multilingualization)という語があり、m17nと略するが、これはソフトウェアで同時に複数の言語や文字などを混在させて使えるようにすることを意味する。国際化は必ずしも複数の言語を同時に処理することを意味しない(もちろんそういう機能があってもよい)。
- 4. これ以外にも、グローバルな販売を本格的に実施していくには、各国の固有事情を踏まえたマーケティングや商品計画も必要になる。広い意味では、これもローカリゼーションである。
- 5.LISAの本部はスイスのローザンヌ近郊のロマンモティエ(Romainmotier)という美しい村にある。
- 6.本稿では、公開されているWorking DraftのTMX 2.0(http://www.lisa.org/fileadmin/standards/tmx2/tmx.html/)に基づいて説明する。
- 7.たとえば、翻訳支援ツールに渡したい情報を定義できる。ただこうした情報は、xmlの名前空間を使ってprop要素に伴う制限なしでも受け渡せるので、主流にはならないかもしれない。
- 8.たとえば、「横罫線は<hr />タグで指定します」という原文があった場合、<header>の中の<inline-data>で、<tag id=”id777” type=”lb”><hr/></tag>と定義しておけば、セグメントの内容は、そのid777を参照して「<seg>横罫線は<x xid=”id777” type=”lb”/>タグで指定します。</seg>」となり、<hr/>を翻訳対象から外すことができる。
- 9.Organization for the Advancement of Structured Information Standards。サイトは http://www.oasis-open.org/。DITAの標準化もOASISである。
- 10. 本稿では、2008年4月7日にOSCAR勧告(Recommendation)になったSRX2.0に基づいて説明する。
- 11. コア構造モジュールの実体はDTDや他のスキーマである。またXCSの実体はXMLファイルである。XMLで記述されたXCSを解釈するのはTBXアプリケーションの責任になる。
- 12. たとえば、LISAのTMXには1998年から10年以上の歴史がある。
- 13. 厳密にいうと、tm:te要素のtu属性にはそのtm:te要素内にあるtm:tu要素の最大値が入っている。これはそのtm:te要素内に新たにtm:te要素がつくられるときにid属性を割り振るために使用される。
- 14. AUTODIN II多項式によって生成されるCRC値である。
- 15. 単独で存在するタグ(例、<img />)の場合は、<it>タグを使える。
- 16. エスケープされたタグを復元して表示するツールが多い。
- 17. たとえばOAXALというオープンアーキテクチャの構想がある。参考文献・サイトを参照。